Introdução ao Aprendizado por Reforço Profundo (DRL)

O Aprendizado por Reforço Profundo (DRL) combina as capacidades de representação em alta dimensão dos Redes Neurais Profundas com o quadro de controle ótimo do Aprendizado por Reforço. Diferentemente do aprendizado supervisionado ou não supervisionado, o DRL agentes aprende por meio de interações experimentais e baseadas em erros dentro de um ambiente dinâmico ambiente, tomando decisões sequenciais decisões sequenciais sem rótulos imediatos ou explícitos. Essa integração permite que os agentes lidem diretamente com entradas complexas e brutas (como dados de pixels).

1. O Paradigma de Aprendizado do DRL

O agente de Aprendizado por Reforço opera em um ciclo contínuo: observando o ambiente Estado ($S_t$), realizando uma Ação ($A_t$), e recebendo uma recompensa escalar potencialmente rara ou atrasada Recompensa ($R_{t+1}$). O principal desafio é o problema de atribuição de crédito: determinar quais ações passadas foram responsáveis por um sinal de recompensa futura.

2. O Objetivo de Otimização

O objetivo final é descobrir uma estratégia ótima, ou política ($\pi^*$), que é uma correspondência de estados para ações, que maximiza o Retorno Acumulado Descontado Esperado ($G_t$). O fator de desconto ($\gamma \in [0, 1]$) é matematicamente crucial, definindo quanto valorizamos recompensas imediatas em comparação com recompensas esperadas no futuro distante.

$$G_t = \sum_{k=0}^{\infty} \gamma^k R_{t+k+1}$$

The Fundamental RL Cycle

An illustration of the Markov Decision Process (MDP) framework. The Agent's policy dictates the action ($A_t$) based on the current state ($S_t$), leading the Environment to transition to a new state ($S_{t+1}$) and provide a reward ($R_{t+1}$).

The Reinforcement Learning Cycle: Agent, Environment, State, Action, Reward

Question 1

How does the DRL agent receive feedback from the environment?

Explicit labels/targets

Backpropagation through time

Scalar reward signal

Labeled demonstration data

Question 2

What does the policy ($\pi$) mathematically represent?

The predicted total reward

A distribution over actions given a state

The probability of transitioning to a new state

The error between predicted and actual returns

Challenge: The Discount Factor

Analyzing the Temporal Horizon.

Consider two scenarios:
1. $\gamma = 0$
2. $\gamma \approx 1$

Describe the agent's behavioral preference in each case regarding the timeline of rewards.

Step 1

How does the choice of $\gamma$ affect the policy's horizon?

Solution:
If $\gamma = 0$, the agent is myopic (shortsighted), focusing only on the immediate reward $R_{t+1}$. If $\gamma \approx 1$, the agent is far-sighted, equally weighting immediate and distant future rewards, leading to planning over a very long horizon.